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SEMEION 



5 Rete neurale artif iciale 



tO — L'invenzione ha peTr~oggetto-~una rete neurale ar- 

tif iciale comprendente divers i nodi che formano almeno 
due strati uno dei quali e un cosiddetto strato di in- 
put e il secondo dei quali e un cosiddetto strato di 
output, i nodi dello strato di input formando degli 

15 input per 1' immissione di dati di input di un database 
e i nodi dello strato di output formando dei canali di 
output per fornire i dati di output che sono i risul- 
tati dell'elaborazione dei dati di input, essendo pre- 
viste delle connessioni tra i nodi dello strato di in- 

20 put e i nodi dello strato di output, ciascun nodo del- 
lo strato di output eseguendo una trasf ormazione dei 
dati di input ricevuti dallo strato di input' in dati 
di output la quale trasf ormazione comprende una prima 
fase di trasf ormazione consistente essenzialmente nel 

25 sommare i dati di input ricevuti dai nodi di input ai 
detti nodi di output pesando i detti dati di input e 
una seconda fase di trasf ormazione che trasf orma, non 
linearmente, i risultati ottenuti median te la prima 
fase di trasf ormazione , i . dati di output ottenuti me- 
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diante detta trasfoxmazione eseguita in un nodo di 
output essendo i dati di output. 

Le reti neurali artificial! sono largamente uti- 
lizzate per diversi scopi. Generalmente parlando, le 
5 reti neurali artificial! appartengono alia famiglia 
dei cosiddetti algoritmi predittivi che sono in grado 
di apprendere dai dati di un database al fine di rag- 
giungere un certo livello iniziale di esperienza per 
la valutazione di situazioni che possono essere de- 

-1-0 scritte median te i re cord— di — da-ti- di un database ac- 

quisiti in molti modi different!. In que s to modo un 
algoritmo adattativo addestrato come le reti neurali 
artificial! puo essere impiegato per valutare le con- 
seguenze di certe situazioni definite da certe carat- 

15 teristiche che sono rappresentate e codificate dai da- 
ti o dalle variabili dei record di dati di un database 
e sulla base dei risultati di questa valutazione una 
macchina funzionante mediante questi algoritmi adatta- 
tivi pud prendere delle decision! circa 1' applicazione 

20 di certe misure o azioni senza la necessita 
dell ' intervento di personale umano . 

Gli algoritmi adattativi non smettono di appren- 
dere e possono accumulare e perfezionare la loro espe- 
rienza migliorando la loro conoscenza ogni volta che 

25 vengono utilizzati, in questo modo aggiungendo, me- 
diante il loro utilizzo, un'ulteriore conoscenza a 
quella acquisita durante la prima fase di apprendimen- 
to. : 

Questo tipo di algoritmi sono le basi per miglio- 
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rare le capacita di eseguire automaticamente del com- 
piti senza l'aiuto o 1 9 intervanto dell' intelligenza 
nmana. Tipicamente essi sono applicati nei robot: o in 
sistemi altamente intelligenti per 1' automatizzazione 
5 e permettono dl espandere l'utilizzo delle macchine 
con elevati livelli di attendibilita anche 
nell'esecuzione di compiti che non possono essere de- 
finiti in termini di dati rigidi basati su parametri 
tecnici, fisici, chimici o simili . 

10 Da — questo^punto di vista tale tipi — di algoritmi 

hanno un carattere tecnico ed un risultato * tecnico, 
poicha lo scopo di guesti algoritmi e di provvedere a 
dispositivi tecnici, come computer che calcolano i da- 
ti in un modo simile al modo con cui guesti dati sa- 

15 rebbero stati trattati dal cervello umano prowedendo, 
in un modo piu semplice, ad una struttura che e con* 
forme alia nota struttura del cervello . 

Gli algoritmi sono utilizzati per risolvere molti 
problem! tecnici o per fornire risultati tecnici come 

20 per esempio per metodi di riconoscimento di immagini o 
di rilevamento dei contorni. 

Ef fettivamente sono noti diversi tipi di archi- 
tetture per tali algoritmi adattativi e particolarmen- 
te per tali reti neurali artificiali. 

25 II principio e la struttura generale di tali reti 

neurali artificiali sono descritti in quanto segue me- 
diante le figure 1 e 3. 

In una classica rete ciascun nodo funziona come 
un elemento che riceve gli input pesati dai* nodi di 
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input, 11 somma e trasforma il risultato median te una 
funzione non lineare . X nodi sono element:! funzionali 
essendo in grado di eseguire trasformazioni dei dati 
di input: f orniti dal database e o da altri nodi e di 
fornire come output:, i dati di output che devono es se- 
re inviati agli altri nodi o i dati di output della 
rete neurale artificiale. 

La fig. 3 chiarisce il meccanismo. Nelle reti 
classiche ciascun nodo esegue una trasformazione non 
lineare su una— trasformazione lineare dei suoi input-: — 



(1) 



dove la trasformazione non lineare F ( * ) e una 
IS funzione come, per esempio, una sigmoidale e la tra- 
sformazione lineare L ( • ) e la somma pesata degli in- 
put: 



20 



£( w w.^- 1] )=i^ ] -4 J - 1] 

i=0 



Come risultato da (1) e (2) 



r 



n 



2>' 



Is] . 

ji i 



\ 



J 



(2) 



(3) 



dove 



lo strato generico della rete, eon s=sl per lo 
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strato di input e valori crescent! per lo strato na- 
scosto e di output; 

J : la variabile di output del nodo J m nello strato 

W; 

5 x)*~ iy : 1' input del nodo generico nello strato W dal 

nodo nello strato ; 

o : un input "falso" al nodo generico nello strato 

M, introdotto artif icialme nte per rappreseritare , in 
un raodo ma temati camen t e conveniente, un utile valore 

10 di soglia. XI suo valore e solitaxnente fissato a 1. 

i 

J 1 : il peso sulla connessione che unisce il nodo l ~ th 

nello strato [5 "" 13 al nodo J " th nello strato M ; 
n il numero degli input al nodo. 

Inoltre e ben noto che le reti neurali artificia- 
ls li possono avere piii di due strati, vale a dire lo 
strato di input e lo strato di output i quali strati 
sono previsti intermedi agli strati di input e di 
output e sono chiamati strati nascosti. Una rete neu- 
rale artif iciale puo avere piu di uno strato nascosto* 
20 Ciascun nodo di ciascuno strato pud essere connesso 
median te un canale di comunicazione con uno* o piu o 
con ciascun nodo dello strato successivo che pud esse- 
re uno strato nascosto o lo strato di output. Ciascun 
nodo e segue le trasf ormazioni sopra menzionate 
25 sull' input ricevuto dagli altri nodi dello strato pre- 
cedente e fornisce ai nodi dello strato successivo un 
valore di output che e calcolato mediante la trasf or- 
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mazione sopra menzionata dell' input ricevuto dai nodi 
dello strato precedente. Sono noti e utilizzati diver- 
si tipi di architetture della connessione tra i nodi 
del difference o dello stesso strato e la presents in- 
5 venzione non e limitata a nessuna delle dette note ar- 
chitetture poiche qualsivoglia delle note architetture 
delle reti neurali possono essere modificate secondo 
gli insegnamenti della presente invenzione. 

Per le reti neurali artificiali e uno scopo im- 

10 portante quello di migliorare— lar-ioro attendibilita e 

la loro capacita di convergere rapidamente ad una so- 
luzione altamente precisa del problema trattato, cioe 
ad una valutazione altamente precisa della situazione 
illustrata dai dati di input e quindi ad una predizio- 

15 ne o ad un da to di output altamente attendibile. 

Le funzioni descritte sopra comprendono dei para- 
metri 1 che sono normalmente impostati casualmente a 
certi valori di inizializzazione e la fase di appren- 
dimento dell' algoritmo consiste nel fornire 

20 all' algoritmo noti dati di input e i corriApondenti 
noti dati di output. Durante questa fase di apprendi- 
men to i parametria solitamente i pesi applicati ai da- 
ti di input ricevuti median te la prima fase di tra- 
sformazione, vengono corretti al fine di ottenere una 

25 migliore corrispondenza dei dati di input coni corri- 
spondenti dati di output noti dai record dell'insieme 
di dati di apprendimento . 

Sono noti differenti gruppi di funzioni di ap- 
prendimento per far apprendere 1 ' algoritmo \ Questi 



gruppi di funzioni dl apprendimento sono una caratte- 
ristica critica dell' algoritmo poiche la fase di ap- 
prendimento influenza 1' attendibilita computazionale e 
la velocita computazionale dell' algoritmo e quindi la 
5 funzionalita dell' algoritmo . I pesi sono definiti me- 
diante la riduzione della distanza tra gli output com- 
putati e i noti output per lo stesso da to di input. A 
seconda della struttura dei dati spesso durante la mi- 
nimizzazione dell'errore 1' algoritmo rileva solo i mi- 

-10 nimi— locali e non i minimi assoluti — in— modo tale per 

cui esso resta attaccato a questi minimi locali senza 
essere in grado di rilevare i minimi assoluti coinci- 
dent! con 1' algoritmo meglio addestrato e appfeso. 

Per una descrizione completa di different! tipi 

IS di reti neurali artificial! si veda per esempio Arbib 
M. A. , (Ed. ) (1995a) , The Handbook of Brain Theory and 
Neural Networks, A Bradford Book, The MIT Press, Cam- 
bridge, Massachusetts, Londra, Inghilterra, 1995. 
Buscema M. & Semeion Group (1999a), Reti Neurali Arti- 

20 ficiali e Sistemi Social! Complessi, Vol* I: Teoria e 
Modelli, Franco Angeli, Milano, 1999. 

L^invenzione ha lo scopo di migliorare una rete 
neurale artificiale in modo tale da avere una conver- 
genza migliore, piu attendibile e piu 1 veloce 

25 dell' algoritmo verso la soluzione migliore e di evi ta- 
re anche i minimi locali durante la fase di apprendi- 
mento . 

L' invenzione consegue gli scopi sopra menzionati 
median te una rete neurale artificiale come descritta 



all'inizio comprendente ulteriormente la caratteristi- 
ca che in ciascun nodo di output: la prima fase di tra- 
sformazione e una funzione di trasformazione non line- 
are dei dati di input ricevuti mediante i nodi di out- 
5 put dai nodi di input. 

Generalmente una rete neurale artificiale com- 
prende uno strato di input avente un numero prede ter- 
minate di nodi di input e uno strato di output avente 
un numero prede termina to di nodi di output, e inoltre 

10 tra lo_stratOL— di— input e quello di output_eJ_p^evis:to__ 
almeno uno strato di nodi, il cosiddetto strato nasco- 
sto, o piu di uno strato nascosto. X nodi di que s to 
strato nascosto sono connessi mediante connessioni pe- 
sate ai nodi di input dello strato di input e ai nodi 

15 di un ulteriore strato nascosto quando e previsto piu 
di uno strato nascosto o ai nodi di output dello stra- 
to di output se e previsto solo uno strato nascosto. 
Ciascun nodo dell 7 almeno uno strato nascosto o di piu 
di uno degli strati nascosti e i nodi dello strato di 

20 output eseguono una trasformazione dei dati di input 
ricevuti dallo strato di input o da un precedente 
strato nascosto in dati di output. Analogamente al ca- 
se in cui sono previsti solo due strati questa tra- 
sformazione comprende una prima fase di trasformazione 

25 consistente nel sommare i dati di input ricevuti dai 
nodi di input ai detti nodi di output pesando i detti 
dati di input e una seconda fase di trasformazione che 
trasforma in modo non lineare i risultati ' ottenuti 
dalla prime fase di trasformazione. Quando i nodi sono 



i nodi di output: dello strato di output i dati di 
output ottenuti da questa tras forma zione eseguita in 
detti nodi sono i dati di output dell' algoritxno . Quan- 
do i nodi sono uno strato nascosto, i dati di output 

5 ottenuti da questa trasf ormazione eseguita in detti 
nodi sono i dati di input forniti dai nodi di un suc- 
cessive strato nascosto o ai nodi di output dello 
strato di output. In ciascun nodo di ciascun strato 
nascosto e nei nodi di output dello strato di output 

10 la prima fase- di — trasf ormazione e una funzione <ii__txa=- 
sfonnazione non lineare dei dati di input ricevuti me- 
dian te i nodi di output o mediant© i nodi di uno stra- 
to nascosto dai nodi di input dello strato di input o 
median te i nodi del precedente strato nascosto. 

IS I dati di input dei nodi dello strato !di input 

consistono nei dati di input del database, mentre i 
dati di output dei nodi dello strato di input sono 
forniti ai nodi dello strato di output come' dati di 
input e i dati di output dello strato di output consi- 

20 stono nei risultato di elaborazione della rete neurale 
artif iciale . ~ 

La prima trasf ormazione non lineare dei, dati di 
input eseguita da un nodo comprende una prima sotto- 
fase di trasf ormazione dei dati di input mediante una 

25 funzione sinusoidale e una seconda sotto-fase di tra- 
sf ormazione consistente nella somma dei dati di input 
dopo la trasformazione mediante la funzione sinusoida- 
le, cioe dopo avere eseguito la prima sotto-fase di 
trasformazione . 
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Ciascun nodo almeno dell' almeno uno strato nasco- 
sto e dello strato di output pud essere descritto come 
comprendente divers i canali di input per differenti 
dati di input; 
5 ciascun canale essendo associato 

un'unita di ricezione per 1'esecuzione della pri- 
ma sotto-fase di trasformazione non lineare della pri- 
ma fase di trasformazione; 

un'unita di sommatoria per 1'esecuzione della se- 
J0__ conda sotto-fase di trasf ormazione ..della prima fase di 
trasformazione sommando i dati di input di ciascun ca- 
nale trasf ormati non linearmente ad un valore 

e un'unita di trasformazione non lineare per 
1'esecuzione della seconda fase di trasformazione me- 
15 diante un filtraggio non lineare del valore "ottenuto 
mediante la prima fase di trasformazione e per fornire 
il valore di output del nodo che e il valore di input 
dei nodi di un successivo strato nascosto o dello 
strato di output. I dati di input possono ult^riormen- 
20 te consistere in un numero p redeterminate di variabili 
in uno spazio di variabili dei dati di input definendo 
le coordinate nello spazio dei dati di input e ciascu- 
na coordinata nello spazio dei dati. di input e tra- 
sformata non linearmente nella prima fase di trasfor- 
25 maziorie in un corrispondente valore di una variabile 
che viene reso dipendente dalla posizione nello spazio 
del valore della coordinata rispetto un' onda dello 
spazio di lunghezza d'onda data, questa dipendenza 
consistente nel moltiplicare i valori delle coordinate 
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d± input per la lunghezza d' onda di un'onda sinusoida- 
le che vengono pox trasformate nello stesso valore, la 
lunghezza d' onda su ciascuna coordinata di input es- 
sendo regolata durante la fase di apprendimento . 
5 La trasf ormazione dei dati di input eseguita da 

ciascun nodo viene definita dalla seguente equazione: 



^= F ( G ( w w ( ,p-«)) 



(4) 



10 dove la trasf ormazione non lineare F( • ) e la funzione 
di filtraggio non lineare della seconda fase di tra- 
sf ormazione e G(*) e la funzione di trasf ormazione non 
lineare della prima fase di trasf ormazione cohsistente 
nella soma degli input pesati elaborati in modo non 

15 monotono, sinusoidale secondo la seguente funzione: 

dove 

[s] 

: lo strato generico della rete, con s=l per lo 
20 strato di input e valori crescent! per gli strati na- 
scosti e di output; 



to 



J : la variabile di output del nodo J nello stra- 
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' : 1' input 1 m del nodo generico nello stxato 



dal nodo * m nello strato 
0 : un input "falso" al nodo generico nello strato 



f [*-l] 

, introdotto artif icialmente per rappresentare , in 
un modo iaatematicamente conveniente, un utile valore 
di soglia che solitamente e fissato a 1. 

M 



- // : il peso sulla connessione che unisce il nodo 
nello strato t 5 "^ al nodo -J""'* nello strato 



72 

10 : ±1 numero d± input al nodo. 



Cxascun nodo esegue una trasformazione de± dati 
di input secondo la seguente £ unzione : 



V=0 



(6) 



15 La f unzione seno introducendo un processo quali- 

tativo poiche ciascun peso J 1 agisce come un parame- 
tro 2n; / lunghezza d' onda nella coordinata i-th dello 
spazio degli input del nodo j-th dello strato s-th. 

La seconda fase di trasformazione non lineare pud 
20 essere eseguita mediante una f unzione sigmoidale . 

Anche i nodi di input dello strato di input pos- 
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sono eseguire una prima fase di trasfoxmazione non li- 
neare e una seconda fase di trasformazione non lineare 
dei dati di input ricevuti essendo previste le seguen- 
ti unita: 

5 un canale di ricezione per i dati di input 

un' unita di ricezione associata a detto canale di 
ricezione per eseguire la prima sotto-fase di trasfor- 
mazione non lineare del la prima fase di trasformazione 
come definito nelle precedenti aff ermazioni; 

10 unijmiJba di sommatoria per eseguixe_la_seconda. 

sotto-fase .di trasformazione del la prima fase di tra- 
sformazione soxnmando i dati di input trasf ormati non 
linearmente di ciascun canale ad un valore come defi- 
nito nelle precedenti aff ermazioni ; 

15 e un'unita di trasformazione non lineare per ese- 

guire la seconda fase di trasformazione median te un 
filtraggio non lineare del valore ottenuto median te la 
prima fase di trasformazione come definito dalla fase 
precedente e per fornire il valore di output dei nodi 

20 di input che e il valore di input dei nodi di un sue- 
cessivb strato nascosto o dello strato di output. 

La presenza di una specif ica doppia relatione non 
lineare sulle connessioni tra i nodi presenta delle 
evidenti conseguenze sulle proprieta della rete secon- 

25 do la presente invenzione sia sulla funzione calcolata 
e sia sul comportamento di questa rete durante la fase 
di apprendi men to . 

L'elaborazione secondo la presente invenzione pud 
essere applicata alle tipologie di reti esistenti come 

- 13- 



t 



una modif icazione fondamentale dolle loro eguazioni di 
apprendimento rappresentante una nuova legge generale 
di apprendxmento. La nuova legge di apprendimento di- 
mostra una considerevole convergenza ed elevate capa- 
5 cita di estrapolazione su basi complesse di dati . 

Ulteriori perf ezionamenti della presente inven- 
zione sono descritti nelle sotto rivendicazioni. 

Le caratteristiche dell' algoritmo secondo la pre- 
sente invenzione e i vantaggi ottenuti con esso ver- 
10 ranno descr itti piu chiaramente median te degii esempr 
dettagliati e median te i disegni allegati in cui: 

La figura 1 illustra una vista schematica dell' e- 
laborazione concettuale nelle reti classiche. 1 

La figura 2 illustra in un modo analogo alia fig. 
15 1 l'elaborazione concettuale secondo le reti della 
presente invenzione. 1 

La figura 3 illustra schematicamente le yariabili 
dei nodi per il nodo j-th . 

La figura 4 illustra schematicamente la struttura 
20 di una rete multi strato secondo l f invenzione . 

Le figure 5 a 7 illustrano uno schema deila solu- 
zione del problema XOR mediante una classica rete neu- 
rale Back propagation, di una cosiddetta rete RBF e 
mediante la rete neurale secondo la presente invenzio- 
25 ne . 

La figura 8 illustra uno schema del cosiddetto 
problema della spirale. 

Le figure 9 e 10 illustrano degli schema! rappre- 

sentanti le soluzioni del problema dalle due spirali 

* 
\ 
i 
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ottenute rispettivamente con la rete neurale secondo 
la presente invenzione e con una classica rete neurale 
back propagation. 

Le figure 11a a lid illustrano degli schemi che 
5 dimostrano soluzioni differenti del problema delle due 
spiral! ottenute mediante la rete neurale secondo la 
presente invenzione con intervalli differenti. 

La figura 12 illustra una schema della soluzione 
del problema delle due spirali ottenuta mediante la 
10 rete secondo la— presente — invenzione su 192 punti di- 
input . 

La figura 13 illustra gli schemi della funzione 
di trasferimento dei pesi dai nodi di input, ai nodi 
nascosti in una rete secondo la presente invenzione. 
15 La figura 14 illustra lo schema della funzione di 

trasferimento dei pesi dai nodi nascosti ai nodi di 
output in una rete secondo la presente invenzione. 

La figura 15 illustra ulteriori schemi della fun- 
zione di trasferimento dei pesi dai nodi di input ai 
20 nodi nascosti in una rete secondo la presente inven- 
zione . 

La figura 16 illustra ulteriori schemi della fun- 
zione di trasferimento dei pesi dai . nodi nascosti ai 
nodi di output in una rete secondo la presente inven- 
25 zione . 

La figura 17 illustra uno schema che descrive il 
confronto tra una classica rete neurale back propaga- 
tion e la rete neurale secondo la presente invenzione 
durante il primo esperimento, relativamente alia cor- 
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rettezza del numero delle unita nascoste. 

La figura 18 illustra uno schema rappresentante 
il risultato del confronto tra una classica re-be neu- 
rale Back propagation e la rete neurale secondo la 
5 presente invenzione sull' insieme di dati del Cancro al 
Seno. 

La figura 19 illustra uno schema rappresentante 
il risultato del confronto tra una classica rete neu- 
rale Back propagation e la rete neurale secondo la 

IQ — presente invenzione sull' insieme— dei— dati del Cancro 
al Seno utilizzando l' M Early Stopping 

La figura 20 illustra uno schema rappresentante 
il confronto tra una classica rete neurale Back propa- 
gation e la rete neurale secondo la presente invenzio- 

15 ne durante il primo esperimento, relativamente alia 
cor rettezza del numero delle unita nascoste con rife- 
rimento all'esempio riferito all' insieme di dati sulla 
Valutazione del Credito Australiano. 

La figura 21 illustra uno schema rappresentante 

20 il risultato del confronto tra una classica rete neu- 
rale Back propagation e la rete neurale secondo la 
presente invenzione sull' insieme di dati sulla Valuta- 
zione del Credito Australiano con "Early Stopping" 
(Ad-Vr-Pr) e senza <Ad-Pr) . 

25 L'esempio illustrate nelle figure e utilizzato 

per le prove si rif erisce ad una rete neurale multi- 
strato avente piu'di uno strato nascosto interposto 
tra lo strato di input e lo strato di output (fig. 4). 
I dati del database sono forniti ai nodi dello strato 
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dl input ±1 quale ha del canal i per ricevere quest! 
data di input. Ciascun nodo dello strato di input e 
connesso a ciascuno dei nodi di un primo strato nasco- 
sto. Ciascun nodo del primo strato nascosto e connesso 
S a ciascun nodo di un ulteriore strato nascosto e cosi 
via fino ad un ultimo strato nascosto, ciascun nodo 
del quale e collegato a ciascuno dei nodi dello strato 
di output . 

Come apparira piu chiaramente nella seguente de- 

LO scrizione teorica e dalle figure— 3 — a — 3-, — i— nodi di una 

rete neurale sono unit a di elaborazione che ricevono 
dati di input in corrispondenza di uno, due, tre o piu 
canali "di input e che eseguono una trasf ormazione dei 
dati di input secondo una funzione non line are per 

15 f ornire ad un canale di output un valore che e il da to 
di output calcolato dalla rete neurale se i nodi sono 
quell i dello strato di output o i quali valori di ou- 
tput vengono forniti come dati di input ai nodi di uno 
strato successivo come uno strato nascosto o Icome uno 

20 strato di output. 

Tipicamente la trasf ormazione dei dati di input 
ricevuti da un nodo viene eseguita secondo due fasi. 
Una prima fase di trasf ormazione per calcolare 1' input 
netto al nodo , che e normalmente una sorta di somma 

25 media o pesata dei dati di input ricevuti tramite un 
nodo e una seconda fase di trasf ormazione che e un 
filtraggio non lineare dei dati di input trasf ormati 
secondo la prima fase. 

La f.igura 1 il lustra un tipico e no to nodo secon- 

i 
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do lo stato dell' arte. Le singole variabili delle fun- 
zioni sono spiegate nella figura 3. 

Secondo la figura 3, per un tipico nodo in un 
certo strato di una re-be neurale artificiale sono uti- 
5 lizzate le seguenti variabili il cui significato e 
spiegato in guanto segue: 

W e definxto come il numero dello strato generico 
della rete, con s=l per lo strato di input e con valo- 
ri crescenti per gli strati nascosti e di output; 

m r-7 

10 J indica la variabile di output del nodo J m nello 

strato W ; 

' indica 1' input al nodo generico nello strato 

[s] dal nodo nello strato t5 "" 1] ; 

x ls-\l 

0 indica un input "falso" al nodo generico nello 

IS strato ^ , introdotto artif icialmente per rappresen ta- 
re, in un modo matematicamente conveniente, un utile 
valore di soglia. XI suo valore e solitamente fissato 
a 1. 

Ji indica il peso sulla connessione che unisce il no- 

20 do nello strato ^"^ al nodo }~ th nello strato M ; 

n indica il numero degli input al nodo. 

ih una rete classica ciascun nodo lavora come un 
elemento che riceve gli input pesati dai nodi di in- 
put, li soxnma e trasforma il risultato median te una 

25 funzione non lineare. In guesto modo nelle reti clas- 
siche ciascun nodo effettua una tras forma zione non li- 
neare su una trasformazione lineare dei suoi input se- 
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condo la seguente funzione: 



(1) 



dove la trasformazione non lineare F ( • ) e una funzione 
come, per esempio, una sigmoidale e la trasformazione 
lineare L(-) e la somma pesata degli input: 



;=0 (2) 

Come risultato da (1) e (2) viene ottenuta la 

classica funzione di trasformazione di un nodo generi- 
10 co in una classica rete neurale: 



Vj=0 



(3) 

La figura 2 illustra scliematicamente la struttura 
di un nodo generico in una rete neurale artificiale 
secondo la presente invenzione. 

15 R' indica le unita di ricezione funziohali che 

svolgono una prima sotto-fase di trasformazione degli 
input della prima fase di trasformazione su ciascun 
canale di input del nodo. La prima sotto-fase di tra- 
sformazione degli input e una trasformazione non line- 

20 are che verra spiegata in maggiore dettaglio nella se- 
guente descrizione . 

E indica la seconda sotto-fase di trasformazione 
degli input della prima fase di trasformazione che e- 
segue la somma dei valori degli input pesati che sono 
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stati precedentemente trasformati da una funzione non 
lineare nelle unita di ricezione R # 

Xi a X n indicano i valori di input che sono rice- 
vuti mediante il nodo da altri nodi i a n se il nodo 
5 appartiene ad uno strato nascosto o alio strato di 
output o che sono i dati di input del database se il 
nodo appartiene alio strato di input. 

w± a w n indica il peso applicato a ciascuna con- 
nessione lungo la quale il nodo riceve i valori di in- 
10 put dagli altri nodi. 

F indica un'ulteriore unita del nodo in cui viene 
eseguita una fase di trasf ormazione non lineare sui 
valori di input che sono stati sottoposti alia prima 
fase di trasf ormazione e fornisce in questo modo un 
15 valor e di output del nodo indica to con Y . 

Bssendo il nodo illustrato un nodo dello strato 
di input o di uno strato nascosto il valore di output 
viene trasmesso attraverso la connessione pesata a 
ciascuno o ad un certo numero di nodi di uno strato 
20 successivo che puo essere uno strato nascosto o lo 
strato di output mentre se il nodo illustrato e il no- 
do dello strato di output, Y indica il contributo del 
nodo ai dati di output calcolati dalla rete. 

L' idea base nell' elaborazione dei dati secondo la 
25 rete neurale artificiale del la presente invenzione e 
di fornire ciascun nodo con le unita di ricezione R 
interposte tra ciascun input e 1' unita di s6mmatoria 
E. Le unita di ricezione R trasf ormano appropriatamen- 
te in un modo non lineare 1' input ricevuto mediante un 
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nodo da ciascun nodo di input, prima di soznmare i con- 
tribute degli input in un valore che deve essere tra- 
sformato tramite una funzione non lineare, che e la 
funzione applicata dall'unita F della seconda fase di 
tras forma z ione . XI significato delle unita di ricezio- 
ne R e nell' introduzione di un processo quanti- 
qualitativo sul valore di input, in sostituzione ad un 
semplice processo quantitative su esso, in analogia a 
quanto viehe fatto negli organismi biologici median te 
porte chimiche rispetto— a— porte— a— potenziale. Gli a- 
spetti qualitativi della trasf ormazione vengono otte- 
nuti utilizzando delle funzioni sinusoidal!. Per cia- 
scuna coordinata i-th dello spazio degli input, que s to 
permette 1 ' introduzione di una dipendenza di, ciascun 
valore i-th trasformato mediante la posizione nello 
spazio del valore della coordinata rispetto all'onda 
dello spazio di lunghezza d' onda data. X valori delle 
coordinate di input, moltiplicati per la lunghezza 
d' onda, sono poi trasf ormati nello stesso valore. La 
lunghezza d' onda di ciascun ricettore di input viene 
regolata durante la fase di appreridimento della rete 
neurale artificiale come ri suiter a evidente nella se- 
guente descrizione di una forma esecutiva. 

Nella rete neurale artificiale seconda la presen- 
te invenzione ciascun nodo effettua una trasf ormazione 
non lineare su una trasf ormazione non lineare ' dei suoi 
input. La funzione che descrive questa trasf ormazione 
e indicata sotto considerando la terminologia delle 
variabili definita sopra con riferimento alia figura 
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In que s to caso la tras forma zione non lineare P ( • ) 
5 e nuovaiaente una funzione come, per esempio, una sig- 
moidale e G ( • ) e anche una trasformazione non lineare 
che pud essere definita come la soxnma degli input pe- 
sati elaborati in modo non monotono, sinusoidale: 

4#.*H" tsin(wW"^PT 

M) (5) 

10 

Come risultato dalla (4) e (5) la trasformazione 
effettuata sull' input median te un nodo in una rete 
neurale artificiale secondo la presente inven zione e 
descritta dalla seguente funzione: 

r 



15 ' (6) 



la funzione seno introduce il procedimento quali- 

tativo voluto. Pud essere notato come ciascun peso Ji 
agisce come un parametro 2n / lunghezza d' oiida nella 
20 coordinata i-th dello spazio degli input del xiodo j-th 
dello strato s-th. 

Deve essere ulteriormente notato che, come gia 
affermato sopra, e come appare chiaramente dalla de- 
scrizione su indicata, la famiglia delle reti secondo 
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la presente invenzione consiste in reti definite pint- 
tosto generalmente , prof ondamente modificate nel corn- 
portamento interno dei loro nodi. Questa variazione 
dei nodi viene presa in considerazione, sia nella va- 
5 lutazione degli output dagli input che nelle fasi di 
apprendimento . 

In quanto segue viene descritto con grande detta- 
glio un esempio di una rete neurale artificiale secon- 
do la presente invenzione in combinazione con una ben 

10 — not a — struttura di una rete neurale cosidde^tta Back 

Propagation . 

La rete neurale artificiale presenta una struttu- 
ra multistrato come descritto nella figura 4. 

I*e reti neurali Back Propagation funzionano se- 

15 condo un principio ben no to cosiddetto Principio di 
Diseesa del Gradient© (per maggiori dettagli vedere 
Rumelhart D.E., Hinton 6. E . , e Willimas R.J.) (1986), 
"Learning internal representations by error propaga- 
tion'' , in Rumelhart D . E . e McClelland J.L. , eds . 

20 (1986) , Parallel Distribuited Processing: Esplorations 
in the Microstructure of Cognition, Volume 1, 318-362, 
Cambridge, MA: The MIT Press. 1986). 

Come esempio di una rete neurale artificiale se- 
condo la presente invenzione la rete neurale descritta 

25 applica un principio di diseesa del gradiente modifi- 
cato con l'elaborazione dei nodi secondo la presente 
invenzione e le equazioni che governano la rete neura- 
le saranno analizzate in dettaglio come una diretta 
applicazione dell' elaborazione dei nodi defin^ta nella 
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equazione (5) . Queste equazioni sono presentate in due 
gruppi : le equazioni per il trasferimento del segnale 



dall' input all' output (equazioni della fase in avanti) 
e le equazioni per la fase di apprendimento ( equazio- 
ni della fase di apprendimento) . 

Le seguenti equazioni si riferiscono al caso ge- 
nerico di discesa del gradiente con multipli strati 
nascosti xrtodificati secondo 1' invenzione . Nella figura 
4 # £ rappresentata una rete multistrato con due strati 
nascosti^— Pud— e&sere-notato che la presenza delle ~uni=- 
ta di ricezione che eseguono la prima sotto-f ase non 
lineare della prima fase di trasf ormazione sugli input 
e prevista solo in corrispondenza dei nodi nascosti e 
di output. 

Equazioni della fase in avanti 

Come affermato nell f equazione (5) , per lo stra- 
to (strati) generico (generic!) , un cosiddetto input 
netto armonico viene definito median te 1' equazione. 



ii valore di attivazione negli output viene cal- 
colato secondo 1' equazione: 





(8) 



dove, per la funzione di attivazione 




possono 
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essere utilizzate le usuali trasf orniazioni , come per 
esempio , la sigmoidale : 

l + e ' (9) 

Equazioni della fase di apprendimento 
Viene utilizzato il principio di discesa del gra- 
dients : 



Jl (10) 

con le usuali funzioni dell'Errore Globale, come 
10 per esempio, I'Errore Quadratico Medio: 



2 *-r di, 



al fine di valutare l'errore su ciascun nodo vie- 
ne definite un errore locale, secondo l'equazione: 

j ■ 

15 7 (12) 



da quanto sopra segue: 
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= —Icoef 



(13) 



= Icoef - e v t 



[s] 



ji 



r 



In 
n k 



Esin(^^r)l= 



= Icoef -e\ 



w.lZ. x i*-v. C0S Usi. JHl) 
n J 7 



per determinare il valore di correzione dei 

6 necessario calcolare l'errore locale J . 
Per lo strato di output: 



pesx, 
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alp a l p 



f 



cE 



(15) 



=-/'(^)-S 



-e 



[s+l] 



r 



v 



In 



T(sin(^.^))T 



V 



in guanto segue la rete neurale artificials sopra 
definita viene applicata per risolvere alcuni tipici 
problemi di verifica per le reti neurali e vengono 
confrontati i risultati ottenuti alia classica rete 
neurale back propagation secondo lo stato dell' arte. 

Come primo esempio viene risolto un problem a mol- 
to semplice (il cosiddetto problema giocattolo) dalla 
rete neurale artificiale secondo l'invenzione, in modo 
da evidenziare alcune proprieta base e delle dif feren- 
ze da altri algoritmi. 

Questo primo esempio e un ben noto semplice in- 
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sieme di dati no to come problema XOR. II modello deve 
apprendere la regola Booleana XOR rappresentata nella 
seguente tabella 1 



(T~ 
0 
1 
1 



x 2 
~0~~ 
1 
0 

1 



0 

1 
1 

0 



Viene fatto un confronto dei risultati ottenuti 
dalla rete neural e artificiale secondo la presente in- 
venzione median te una cosiddetta rete MLP addestrata 
10 con un algoritmo Back-propagation. La rete MLP utiliz- 
zata in questa prova e una versione migliorata del 
classico algoritmo Back -propagation sviluppata al Cen- 
tro di Ricerca del Semeion e descritta in Buscema M. 
and Sacco P.L. (2000) " Feedforward networks in finan- 
15 cial predictions: the future that modifies the pre- 
sent", in Expert Systems, Vol. 17(3), Agosto, Bla- 
ckwell, Oxford UK. Pp. 149-170, 2000. 

Owiamente entrambe le reti sono in grado di con- 
vergere alia soluzione corretta, per cui quello che e 
20 stato analizzato e la qualita della soluzione e la ve- 
locita della convergenza. 

La figura 5 illustra la soluzione tipica della 
rete back propagation, con due iperpiani che dividono 
lo spazio in tre region! . Risulta chiara la profonda 
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differenza tra la soluzione tipica trovata dalla rete 
secondo la presente invenzione illustrata nella figura 
1 e la soluzione della figura 5 . L' architettura della 
rete neurale artificiale secondo 1 ' invenzione presenta 

5 una proprieta di localizzazione simile ad una certa 
architettura neurale di "raggruppamento input " come la 
rete RBF (figura 6) - Questa proprieta e dovuta alia 
funzione non monotona delle connessioni tra lo strato 
di input e quello nascosto. 

10 Per— qoatrto - riguarda la velocita della "convergeir 53 — 
za, dalla tabella 2 appare evidente che la rete neura- 
le artificiale secondo 1' invenzione presenta una buona 
prestazione rispetto alia rete neurale back propaga- 
tion. Questo e probabilmente in parte stimato dalla 

15 "fase di raggruppamento" eseguita dai pesi non linear! 
e non monotonia 





BP SN 


MEDIA 
STDEV 


94.4705950. 
109.328167. 


61111 
78612 



II conf ronto della tabella 2 riguarda la velocita 
20 della convergenza sul problema XOR in epoche, con 20 
prove, essendo entraxnbe le reti fermate due volte pri- 
ma della convergenza (minimo locale) . 

II secondo semplice problema con cui e stato te- 
sta ta la rete secondo la presente invenzione e il co- 
25 siddetto "problema della spirale" il cui database e 
illustrato graficamente nella figura 8. 
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XI database e stato sottoposto al calcolo con una 
rete back propagation con 100 unita nascoste e una re- 
te secondo l'invenzione con 30 unita nascoste. Anche 
in questa prova sono stati valutati la qualita della 
5 soluzione e la velocita della convergenza. 

Questa volta vi e una separazione simile, con la 
soluzione della rete neurale secondo l'invenzione che 
presenta una soluzione piu regolare confrontata con la 
separazione dello spazio ottenuta nella soluzione cal- 
10 colata median te la class ica rete— di back propagation. 

La figura 9 illustra graficamente la soluzione 
del problema delle due spiral! calcolata con la rete 
secondo la presente invenzione. 

La figura 10 illustra graficamente la soluzione 
15 del problema delle due spiral! calcolata con la clas- 
sica rete di back propagation. 

Durante questa prova e stata notata una : interes- 
sante proprieta dell' algoritmo secondo la presente in- 
venzione riguardo al suo interval lo di iniziaiizzazio- 
20 ne dei pesi . Da come appare evidente dalla figure 11a 
a lid, esiste una irregolarita crescente della solu- 
zione del problema della spirale a fronte di un aumen- 
tato intervallo dell' inizializzazione dei pesi, cosi 
come anche una convergenza piu veloce. Que s to signifi- 
25 ca che e possibile controllare la compensazione tra le 
proprieta di appro ssimazione e di generalizzazione 
della rete secondo la presente invenzione utilizzando 
different! intervalli per 1' inizializzazione dei pesi. 

Nella figura 11a la rete secondo l'invenzione e 

-30- 



stata addestrata per circa 5000 epoche con un inter- 
vallo di inizializzazione casuale tra (-1:+1) . Si ot- 
tiene un valore RMSE sull'insieme di addestranento di 
circa 0.201 e una separazione regolare tea le due spi- 

5 raii. Aumentando il detto intervallo di inizializza- 
zione dei pesi ad un intervallo (-11: II) (figura lib) 
viene ottenuto lo stesso valore RMSE a 3000 epoche e 
la regolarita della soluzione e ancora appopriata, in- 
vece quando si utilizza un intervallo di (-10:10) e di 

TO maggiore, appaiono solo alcune tracce del problema o- 
riginale, ottenendo alia fine un'interpolazione pun to 
per pun to dell' insieme di addestramento. 

In que s to modo e possibile dire che utilizzando 
una rete secondo la presente invenzione e disponibile 

IS un parametro sensibile a selezionare le proprieta di 
interpolazione/generalizzazione del model lo addestra- 
to. Questo potrebbe essere utile, ma presenta alcuni 
inconvenienti se non esiste un metodo per decidere il 
corretto intervallo da utilizzare. Sembra che in que- 

20 sto caso sia state incontrato un problema storico nel- 
la letteratura delle reti neurali, particolarxiiente su- 
gli algoritmi di back propagation, definire il numero 
corretto di unit a nascoste ( vedere Geman, S. ] Bienen- 
stock E . e Doursat R. , (1992), "Neural Networks and 

25 the Bias /Variance Dilemma" Neural Computation, 4, 1- 
58, 19^2) . 

Al contrario del numero di unita nascoste, in 
questo caso esiste una formula "quasi sempre vera" per 
questo valore ed e I 7 intervallo (-13: II), che e chia- 
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ramente un periodo sinusoidale pieno . Poiche 1' input 
viene normalizzato -bra 0 e 1, questa scelta conduce ai 
migliori risultati in tutti gli esperimenti qui rife- 
riti e in altri che confermano i risultati presentati 
5 in questa descrizione. 

Un altro problema di discrimi nazione della spira- 
le e la spirale con 192 punti . Questo e un problema 
piu difficile rispetto a quello precedente . I risulta- 
ti di questa prova sono illustrati nella figura 12 che 

10 iUafltea- graf icamente le capacita del-la — rete -secondo 

la presente invenzione di convergere su eompifci diffi- 
cili. 

Nell' analizzare il comportamento della rete neu- 
rale artificiale secondo la presente invenzione occor- 

15 re sottolineare il comportamento dal punto *di vista 
dei pesi. Dalla semplice regola si n(x) s x perx e f0,.2] ^ ap _ 
pare evidente che con piccoli pesi le connessioni se- 
condo la rete della presente invenzione si t r a s formano 
in una connessione piu semplice di una rete! di back 

20 propagation secondo lo stato dell 'arte. 

E interessante osservare come la rete neurale ar- 
tificiale secondo la presente invenzione uti'lizza la 
non linearita sulla connessione dei pesi durante 
1'apprendimento da problem! sempliei a problem! piu 

25 difficili, Nelle figure successive e illustrate il 
grafico della funzione che caratterizza ciascuna sin- 
gola connessione nella rete neurale artificiale secon- 
do I 7 invenzione con un intervallo di input [0,1], ad- 
dendo della soroma nell' equazione (5) . 
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Nella figura 13 sono illustrati i pesi che pro- 
vengono dai nodi di input ai nodi nascosti del peso 
del seno, in questo caso la differenza dalla semplice 
relazione lineare della rete di back propagation se- 

5 condo lo stato dell' arte non e cosi forte, ma analiz- 
zando i pesi dai nodi nascosti ai nodi di output (il- 
lustrati nella figura 14) appare evidente il comporta- 
mento non lineare e non monotono della connessione 
sull'azione della rete neurale artificiale secondo la 

10 presen-te-invenzione . 

Nella figure 15 e 16 sono rappresentate le fun- 
zioni sui pesi da input-nascosti e nascosti-output . 
Aumentando la complessita del problema affroxitato, il 
problema a 64-spirali, pud essere visto che la rete 

15 neurale artificiale secondo l'invenzione utilizza una 
maggiore non linearita sulle connessioni accentuando 
in questo modo la differenza con le reti utilizzanti 
relazioni lineari sulle connessioni'. 

In cio che segue sono analizzati il comportamento 

20 della rete neurale secondo la presente invenzione e il 
comportamento di una classica rete neurale ; di back 
propagation mediante una prova su due reali e • comples- 
si database . 

I database di questi due ulteriori esempi sono 
25 disponibili in Internet e gli insiemi di dati selezio- 
nati sono : 

- il database del cancro al seno e stato . ottenuto 
dall' universita del Ospedale del Wisconsin, Madison 
dai Dr. William H, Wolberg 
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- il database sulla valutazione del credito au- 
straliano e disponibile nel progetto Statlog. 

Per effettuare le analisi su questo insieme dl 
dati e stato scelto un approccio di validazione incro- 

5 ciata . Come richiesto nella documentazione, per il DB 
del Cancro al Seno e stata scelta una validazione in- 
crociata per 9 volte mentre per il DB della Valutazio- 
ne del Credito Australian© e stata scelta una valida- 
zione incrociata per 10 volte. 

10 I/utilisszo — della- validazione incrociata — per — It- 

volte e dovuto all' esplieita richiesta che si trova 
nella documentazione dichiarata degli insiemi di dati . 
Poiche questo approccio potrebbe essere inefficace per 
quanto ri guar da 1' err ore del primo tipo e stato anche 

15 eseguita nel confronto delle prestazioni decfli algo- 
ritmi una validazione incrociata di meta campione che 
ha confermato i risultati riportati qui. 
XI database del Cancro al seno 

Le caratteristiche di questo database sono rias- 

20 sunte brevemente qui di seguito: 

Titolo: Database del Cancro al Seno nel Wisconsin 
Numero dei Casi: 699 

Numero degli Attributi: 10 piu l'attributo della clas- 
se (benigno, maligno) 
25 Distribuzione della classe: Benigna: 458 (65.5%) - Ma- 
ligna: 241 (34.5%) 

La configurazione della rete erano per la rete 
back-propagation le funzioni di attivazione sigmoidale 
e Softmax per i nodi di output, un nodo per la classe 
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maligna e un nodo per quella benigna. (vedere maggiori 
dettagli in Mangasarian O.L. e Wolberg W.H., (1990), 
^Cancer Diagnosis via linear programming", SIAM News, 
Volume 23, Numero 5, Settembre 1990, pp 1 & 18) . 
5 Per la rete neurale artificiale secondo la pre- 

sents invenzione e stata utilizzata la stessa configu- 
razione. 

Sono stati utilizzati due approcci. II primo e 
stato una validazione incrociata per 9 volte con 629 

10 osservazioni -neli~ f insieme— di addestramento e 70 osser — 
vazioni nella predizione, per analizzare le capacita 
della rete secondo la presente invenzione per quanto 
riguarda alle propriety di sovra-adattamento , ed un 
secondo e stato un approccio di validazione incrociata 

IS per 9 volte ottenente 629 osservazioni per 1' insieme 
di tuning e 70 osservazioni per 1' insieme di predizio- 
ne; 1' insieme di tuning e stato diviso in insieme di 
addestramento (315) e insieme di verifica (314) per 
eseguire un approccio di "Early Stopping" per ridurre 

20 il fenomeno del sovra-adattamento come descritto con 
maggiore dettaglio in Sarle W.S., (1995), "Stopped 
Training and Other Remedies for Overf itting" , per ap- 
parire negli atti del 27esimo Simposio 
sull' Interfaccia, 1995. 

25 Durante il primo esperimento sono state testate 

i 

quattro differenti architetture per reti implicanti 4, 
8, 12 e 16 unita nascoste al fine di valutare la sen- 
sibilita dei risultati sul numero delle unita nasco- 
ste. 
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La seguente tabella illustra la Media Pesata del 
la Precisione sull'insieme di dati del Cancro al Seno 

Modello 
Nascosti Bp SN 
04 0.9525 0.9612 

08 0.9481 0.9662 

12 0.9519 0.9660 

16 0.9543 0.9648 



La seguente tabella illustra la Varianza della 
5 Precisione sull' insieme di dati del Cancro al Seno 



Modello 

Hidden Bp SN 

04 0.0083 0.0072 

08 0.0106 0.0070 

12 0.0095 0.0078 

16 0.0097 0.0076 



Nelle due tabelle cosi come in diverse delle fi- 
gure allegata la rate neurale artificiale secondo la 

10 presente invenzione e indicata come SN o rete SN o Si- 
ne Net; mentre la classica rete Back propagation se- 
condo lo stato dell 'arte e definita come Bp. 

Per quanto riguarda 1'assoluta prestazione la re- 
te secondo la presente invenzione ottiene risultati 

15 migliori in tutte le conf igurazioni ottenendo anche 
una varianza inferiore degli esiti . Questo significa 
che la rete secondo la presente invenzione e piu a££l- 
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dabile circa il sovra-adattamento confrontata con le 
classiche reti back propagation. Appare anche evidente 
che la variability del risultati e inferiore nella re- 
te secondo la presente invenzione contro la rete back 
5 propagation. Que s to fatto sottolinea che la rete se- 
condo la presente invenzione e meno sensibile circa il 
numero delle unita nascoste. 

Questo risultato e illustrato graf icamente nella 
figura 17 dove e rappresentato il confronto tra una 

-K) classica rete back propagation— e — -la — rete secondo la 

presente invenzione durante la prima prova relativa- 
mente alia correttezza del numero delle unita nasco- 
ste. 

La figura 18 rappresenta il risultato del con- 
15 fronto tra una classica rete back propagation .e la re- 
te secondo la presente invenzione sull' insieme di dati 
del Cancro al Seno, confrontando le medie pesate delle 
unita nascoste corrette contro il numero delle unita 
corrette . 

20 E stato eseguito un ulteriore test sperimentale, 

con 12 unita nascoste e utilizzando 1' "Early Stop- 
ping" . Questo ulteriore test sperimentale conferma i 
risultati illustrati nella figura 18 . in questo caso 
la rete back propagation presenta un miglioramento 

25 maggiore rispetto alia rete secondo la presente inven- 
zione sottolineando le prestazioni migliori della rete 
secondo 1' invenzione contro il sovra-adattamento. 

La figura 19 illustra analogamente alia figura 18 
il risultato del confronto tra la classica fete back 
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propagation e la rete secondo l'invenzione 
sull'insieme di dati del Cancro al Seno utilizzando 
1' "Early Stopping". 

II database della Valutazione del Credito Australiano 
5 Titolo: Approvazione del Credito Australiano 
Numero dei Casi: 690 

Numero degli Attributi: 14 + 1'attributo della classe 
(buono / ca t t i vo ) 

Distribuzione della Classe: Classe2: 307 (44.5%), 
10 Classel : 3B3~(5 5 . 5% ) — 
Questo insieme di dati si riferisce alle richie- 
ste delle carte di credito. 

Sono stati utilizzati due approcci per esaminare 
questo insieme di dati. Una validazione incrociata per 
15 10 volte con addestraxnento e predizione, e una valida- 
zione incrociata per 10 volte con addestramento, veri- 
fica, e predizione utilizzando Early Stopping contro 
il sovra-adattamento . I*e configurazioni della rete so- 
no le stesse dell' esperimento del Cancro al Seno. 
20 I risultati della prima prova, con un numero di 

unita nascoste di 4, 8 , 12, 16 sono riassunti nella 
figura 20 e nella seguente tabella 5. 



V1 10 volte 



Nasco- 






sti 


Bp 


SN 


04 


0.8146 


0.8573 


08 


0.8333 


0.8449 


12 


0.7981 


0.8512 



\ 

t 
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16 0.8220 0.8525 



La tabella 5 illustra il confront© tra una clas- 
sica rete back propagation Bp e la rete secondo 
1'invenzione chiamata rete SN durante la prima prova e 
5 collegato alia correttezza del numero delle unita na- 
scoste . 

La figura 20 e una rappresentazione grafica dei 
risultati della tabella 5. 

Sixnilmente al precedente test sperimentale nel 
10 secondo test sono state utilizzate 12 unita nascoste, 
e il confronto tra i risultati della prima prova e ri- 
portato nella tabella 6 e nella figura 21. 





Ad-Pr Ad-Vr-Pr 


BP SN BP SN 


Media 
Var 


0.8146 0.8573 0.8629 0.8653 
0.0022 0.0018 0.003370.002411 



IS La tabella 6 riassume il risultato del confronto 

tra una classica rete back propagation Bp e la rete 
secondo la presente invenzione SN sull' insieme di dati 
della Valutazione del Credito Australiano, con "Early 
Stopping" (Addestramento-Verifica-Predizione) e senza 

20 (Addestramento-Predizione) . La figura 21 illustra una 
rappresentazione grafica dei risultati della tabella 
6. 

I risultati assoluti e il confronto tra la prima 
e la seconda prova confermano gli esiti ottenuti con 
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l'insieme di dati del Cancro al Seno: vale a dire ri- 
sultati migliori della re-be secondo l'invenzione con 
una varianza piu piccola e una maggiore differenza 
della correttezza tra la prima e la seconda prova per 
la rete back propagation, suggerendo il comportamento 
migliore della rete secondo l'invenzione circa il pro- 
blema del sovra-adattamento . 
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RIVENDICAZIOHI 
1 . Una rete neural e , comprendente diver si nodi 
che formano almeno due strati uno del quail e 11 co- 
5 siddetto strato dl input e 11 secondo del quail e 11 
cosiddetto strato dl output, 1 nodi dello strato dl 
input formando degli input per 1' immissione dl dati dl 
input di un database e 1 nodi dello strato dl output 
formando del canal! di output per fornire 1 dati di 

10 output che sono 1 rlsultati dell'elalsoraz lone del dati 
di input, essendo previste delle connessioni tra i no- 
di dello strato di input e i nodi dello strato di 
output, ciascun nodo dello strato dl output eseguendo 
una trasformazione del dati di input ricevuti dallo 

15 strato di input in dati di output la quale trasforma- 
zione comprende una prima fase dl trasformazione con- 
sistente essenzialmente nel sommare i dati cLL input 
ricevuti dai nodi di input ai detti nodi di output pe- 
sando i detti dati di input e una seconda fase di tra- 

20 sformazione che trasforma, non linearmente, i risulta- 
ti ottenuti median te la prima fase di trasformazione, 
i dati di output ottenuti mediante detta trasformazio- 
ne eseguita in un nodo dl output essendo 1 dati dl 
output 

25 carat terizzato dal fatto che 

in ciascun nodo di output la prima fase di tra- 
sformazione e una funzione di trasformazione non line- 
are del dati di input ricevuti mediante i nodi di 
output dai nodi di input. 
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2 , Una rete neurale artif iciale secondo la riven- 
dicazione 1 comprendente uno strato di input: avente un 
numero predeterminato di nodi di input e uno strato di 
output avente un numero predeterminato di nodi di 
5 output, caratterizzata dal fatto che tra lo strato di 
input e quello di output e previsto almeno un ulterio- 
re strato di nodi, il cosiddetto strato nascosto, o 
piu di uno strato nascosto , i nodi di questo strato 
nascosto essendo connessi median te connessioni pesate 

10 ai- n o di di— input dello strato di input— e—ai— nodi- di un 

ulteriore strato nascosto quando e previsto piu di uno 
strato nascosto o ai nodi di output dello strato di 
output se e previsto solo uno strato nascosto; ciascun 
nodo dell' almeno uno strato nascosto o di pi**a di uno 

IS degli strati nascosti e i nodi dello strato di output 
eseguendo una trasformazione dei dati di input ricevu- 
ti dallo strato di input o da un precedente strato na- 
scosto in dati di output, la quale trasformazione com- 
prende una prima fase di trasformazione consistente 

20 nel sommare i dati di input ricevuti dai nodi-di input 
ai detti nodi di output pesando i detti dati di input 
e una seconda fase di trasformazione che trasfoxma in 
modo non lineare i risultati ottenuti dalla prime fase 
di trasformazione, i dati di output ottenuti da questa 

25 trasformazione eseguita in detti nodi essendo i dati 
di output se i nodi sono i nodi di output dello strato 
di output o i nodi di input f orniti dai nodi di uno 
strato nascosto ai nodi di un successivo strato nasco- 
sto o ai nodi di output dello strato di output, in 



ciascun nodo di ciascun strato nascosto e nei nodi di 
output dello strato di output la prima fase di tra- 
sformazione e una funzione di trasf ormazione non line- 
are dei dati di input ricevuti mediante i nodi di 
5 output o mediante i nodi di uno strato nascosto dai 
nodi di input dello strato di input o mediante i nodi 
del precedente strato nascosto. 

3 . Una rete neurale artif iciale secondo la riven - 
dicazione 1 in cui i dati di input dei nodi dello 

TO strato di input consistono nei dati di input" "del 
database, mentre i dati di output dei nodi dello stra- 
to di input sono forniti ai nodi dello strato di 
output o ai nodi del primo strato nascosto o ai nodi 
dell'almeno uno strato nascosto come dati di input dei 

15 nodi di questi strati e i dati di output dello strato 
di output consistono nel risultato dell' elaborazione 
della rete neurale artif iciale. 

4. Una rete neurale artif iciale in cui la prima 
trasf ormazione non lineare dei dati di input ? eseguita 

20 da un nodo comprende una prima sotto-fase di * trasf or- 
mazione dei dati di input mediante una funzione sinu- 
soidale e una seconda sotto-fase di trasf ormazione 
consistente nel la somma dei dati di input dopo la tra- 
sf ormazione mediante la funzione sinusoidale, cioe do- 

25 po aver esegruito la prima sotto-fase di trasf ormazio- 
ne . 

5. Una rete neurale artif iciale secondo una o piu 
delle precedent! rivendicazioni , caratterizzata dal 
fatto che ciascun nodo almeno dell'almeno uno strato 
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nascosto e dello strato di output comprende divers! 
canali di input: per different! dati di input; 
ciascun canale essendo associato 

un'unita di ricezione per 1'esecuzione della pri- 
5 ma sotto-fase di trasf ormazione non lineare della pri- 
ma fase di trasformazione; 

un'unita di sommatoria per I'esecuzione della se- 
conda sotto-fase di trasf ormazione della prima fase di 
trasformazione sommando i dati di input di ciascun ca- 

10 nale trasf ormati n on linearmente ad un valore 

e un' unit a di trasformazione non lineare per 
I'esecuzione della seconda fase di trasformazione me- 
dian te un filtraggio non lineare del valore 'ottenuto 
mediante la prima fase di trasformazione e peat fornire 

15 il valore di output del nodo che e il valore di input 
dei nodi di un successivo strato nascosto o dello 
strato di output. 

6. Una rete neurale artificiale secondo una o piu 
delle precedent! rivendicazioni , caratterizzata dal 

20 fatto che i dati di input consistono in un numero 
predeterminato di variabili in uno spazio di ^ariabili 
dei dati di input ciascuna variabile essendo def inita 
da coordinate nello spazio dei dati di input e ciascu- 
na coordinata nello spazio dei dati di input e tra- 

25 sformata non linearmente nella prima fase di trasfor- 
mazione in un corrispondete valore di una variabile 
che viene reso dipendente dal la posizione nello spazio 
del valore della coordinata rispetto un' onda • spaziale 
di lunghezza d'onda data, questa dipendenza consistent 
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te nel moltiplicare 1 valori delle coordinate di input 
per la lunghezza d' onda di un' onda sinusoidale che 
vengono poi trasformate nello stesso valore, la lun- 
ghezza su ciascuna coordinata di input essendo regola- 
ta durante la fase di apprendimento • 

7. Una rete neurale artificiale caratterizzata 
dal fatto che la trasformazione dei dati di input ese- 
guita da ciascun nodo viene definita dal la seguente 
equazione : 



10 



(4) 



dove la trasformazione non lineare F ( - ) e la fun zi one 
di filtraggio non lineare del la seconda fase' di tra- 
15 sformazione e G(-) e la funzione di trasformazione non 
lineare della prima fase di trasformazione consistente 
nella somma degli input pesati elaborati in modo non 
monotono, sinusoidale secondo la seguente funzione: 

G( W M,p- 1] )= isin( w W.,p-«) 



20 

dove 



M 

: lo strato generico della rete, con s=l per lo 
strato di input e valori crescenti per gli strati na- 
scosti e di output; • 
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J : la variabile di output del nodo J nello stra- 



to 



' : 1' input del nodo generico nello strato 

^ dal nodo *~ th nello strato 
5 0 : un input "falso" al nodo generico nello strato 

[s] 

L J , introdotto artif icialmente per rappresentare , in 
un modo matematicamente conveniente , un utile valore 
di soglia che solitamente e fissato a 1. 

J 1 : il peso sulla connessione che unisce il nodo 
10 t—th ne n 0 strato [ S ~^ al nodo J ~ th nello strato 

w. 

ft 

: il numero di input al nodo. 

8 . Una rete neurale artif iciale secondo la riven- 
dicazione 7, caratterizzata dal fatto che ciascun nodo 
IS e segue una trasformazione dei dati di input secondo la 
seguente funzione : 



(6) 



La funzione del seno intxoducendo un processo 
qualitative poiche ciascun peso J 1 agisce ■ come un 
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parametro 2n / lunghezza d' onda nella coordinata i-th 
dello spazio degli input del nodo j-th dello strato s- 
th, 

9. Una rete neurale artificiale secondo una o piu 
5 delle precedent! rivendicazloni caratterizzata dal 

fatto che la seconda fase di trasformazione non linea- 
re e eseguita median te una funzione sigmoidale. 

10 . Una rete neurale artificiale secondo una o 
piu delle precedent! rivendicazloni caratterizzata dal 

10 fa tto che essa e una ret e neurale B ack propagation 



multi strato comprendente una fase in avanti e 'una fase 
di apprendimento che utilizza un principle di discesa 
del gradiente; 

la fase in avanti essendo def inita dalle ' seguenti 
15 equazioni : 

una prima fase di trasformazione armonica che 
fornisce il valore X dell ' input netto trasformato dove 

n /=0 

Una seconda fase di trasformazione non lineare 



20 median te una cosiddetta funzione di attivazione 

determinante 1' output del nodo secondo l'equazione: 

Jp = /(/")= / 2£^ sin ( w w . ^ n f 

^ " ' } (8) 

la fase di apprendimento essendo definita dalle 
seguenti equazioni: 
25 II principio di discesa del gradiente 
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J! (10) 

con le solite funzioni di Errors globale 
l'errore si ciascun nodo e valuta to definendo il loca 
le secondo 1 ' equazione : 

As] _ g 

1 (12) 

Ottenendo cosi 



AwW = -Icoef • - 
= —Icoef ■ — — — — 



^ (13) 

In 



10 >' v 



= Icoef ■ ef ■ ^ x} 5 " 11 • cos( W W • x<*-" ) 



e per determinare il valore di correzione dei pe 

si, l'errore locale J essendo calcolato come: 
15 Per lo strato di output: 
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lout] 



cE 



Per gli altri strati: 



(14) 



3E 



=-/-(/y ] )-E 



r 



dE 



(15) 



11. Una rete neurale artificiale secondo la ri- 
vendicazione 10, caratterizzata dal fatto che . 
10 la funzione di attivazione della fase in avanti 



la funzione sigmoidale: 



x { p = sigm 



tirh 



i 



\ + e 



(9) 



la funzione di errore della fase di apprendimento 
e la funzione dell 'Errore Quadra tico Medio: 
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1 k=l 



(11) 

il valore di correzione del peso per lo strato d± 
output diventa 



il valore di correzione del peso per gli altri strati 
diventa 

10 



2 

k 



— e 



r 



2w 



V 



n 



15 12. Una rete neurale artificiale secondo una o 

piu delle precedenti rivendicazioni, caratterizzato 
dal fatto che i nodi di input dello strato di input 
eseguono una prima fase di trasf ormazione non lineare 
e una seconda fase di trasf ormazione non lineare dei 

20 dati di input ricevuti essendo prowisti delle seguen- 
ti unita: 

un canale di rieezione per i dati di input 
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un'unita di ricezione associata a detto canale di 
ricezione per eseguire la prima sotto fase di trasfor- 
mazione non lineare della prima fase di trasformazione 
come definita nelle precedenti rivendicazioni; 

5 un'unita di s omnia, tori a per eseguire la seconda 

sotto fase di trasformazione della prima fase di tra- 
sformazione sommando i dati di input trasformati in 
modo non lineare di ciascun canale ad un valore come 
definito nelle precedenti rivendicazioni; 

10 e un' unita di trasformaz ione non lineare . per ese- 

guire la seconda fase di trasformazione me di ante un 
f iltraggio non lineare del valore ottenuto me di ante la 
prima fase di trasformazione come definita dalla pre- 
cedents fase e fornendo il valore di output dei nodi 

15 di input che e il valore di input dei nodi di uno 
strato nascosto successivo o dello strato di output. 



i 



-51- 



RIASSUNTO 

Una rete neurale artificiale comprende almeno uno 
strato dl input con un numero predeterminato d± nodi 
di input e almeno uno strato di output con un numero 
5 predeterminato di nodi di output o anche almeno uno 
strato nascosto intermedio con un numero predetermina- 
to di nodi tra lo strato di input e di output. Almeno 
i nodi dello strato di output e/o dello strato nasco- 
sto e/o anche dello strato di input eseguono una tra- 

.40 sformazione non lineare dei dati di— input— per- ealcola- 

re un valore di output che deve essere fornitb come un 
valore di input ad uno strato successivo o un dato di 
output se viene considerato lo strato di output, 
(fig -2) 

15 
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Figure 2 - 



Conceptual processing In classical Sine Net networks 



2/12 




c "55 

CO -tS " 



■ I 
11 

O) CO 
LL. o 




4/12 




<D 

<§ g 

o 8 

ul b. 



I 

2 

Ql 

2 

'5. 

CO 



• r£ r-^ 


r§ 

3 

V: 

*H * 


3 S 3# 3| ■ 
# 

• 


_s 



s 

CL 

i2 
2 

CO 



I 

CO 



5/12 





6/12 




7/12 




8/12 




9/12 




12/12 

Correctness on hidden units 



0.3800 

0.8600 

S 0.8400 
e 
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Hidden Units 



Figure 20 — Comparison between Bp and SN network during the first trial, 
correctness on hidden units number 



1.0000 



Weighted Mean 
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Figure 21 — Result Comparison between BP and SN on the Australian 
Credit Scoring dataset, with "Early Stopping" (Tr-Ts-Pr) and without (Tr-Pr) 
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